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Abstract 



(DE 4108309) 



A machine system is used to determine the connection between 
separately compiled programme modules. The process consists of 
a module identification (V1000) , a trace process (V2000) , a 
processing stage (V3000) and a stage (V4000) in which the 
modules are linked together. The trace process provides 
simulation of the programme cycle and the memory access is 
listed. The processing operation evaluates the variable link 
structure for the modules to identify the number of Cache 
misses and so obtain an optimum linking. The final stage 
performs the linking process. 

ADVANTAGE - Improved programme machine linking. 
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. Beschreibung 

Die Erfindung betrifft ein Verfahren zur maschinellen Opiimierung des Bindens von Programmodulen zu 
einem Programm im Hinblick auf die verwendete Speicherhierarchie bei dem das Programm ausfuhrenden 
5 Rechner. 

Programme werden von Programmieren als Quellenprogramme abgefaBt. Derartige Quellenprogramme 
werden von einem Compiler verarbeitet, so daB daraus ein auf einem Rechnersystem ablauffahiges Programm 
maschinell erstellt wird Ein derartiges Programm besteht haufig aus mehreren Modulen als Ergebnis von 
beispielsweise getrennten Compilierungen verschiedener Module. Derartige Module werden in einer Linkphase 

io des Compilers zum ablauffahigen Programm gebunden. Zwischen diesen Modulen konnen Programmtibergange 
und Datenzugriffe vorgesehen sein. Beim Ablauf des Programms sollen diese Module gemaB ihrer Link-Anord- 
nung in einem Speicher vorliegen zur Programmbearbeitung mittels Prozessor. Mittels Speicherzugriff adres- 
siert der Prozessor das Programm beispielsweise beim Laden von Instruktionen, beim Lesen von Daten, beim 
Schreiben von Daten (siehe z. B. US 4 330 822). 

15 Neuere Prozessoren haben eine Adressierfahigkeit, welche weit groBer ist als ein kostengunstiger Speicher. 
Daruber hinaus haben neuere Prozessoren eine Arbeitstaktfrequenz, welche hoher ist als die Zugriffszyklusfre- 
quenz eines groBen kostengunstigen Speichers. Schnellere Speicher sind weniger kostengunstig. Aus diesem 
Grunde werden haufig Speicherhierarchien verwendeL Insbesondere wird zumeist ein groBer kostengunstiger 
Halbleiterspeicher als ein Hauptspeicher verwendet mit einer niedrigeren Zykluszugriffsfrequenz in Verbindung 

20 mit einem kleinen schnellen Cache, dessen Zugriffszyklusfrequenz auf den Prozessor abgestimmt sein solL 

Beispielsweise kann ein Prozessor betrachtet werden, welcher beim Ablauf der Verarbeitung des Programmes 
alle 40 nsec einen Befehl als Instruktion aus dem Speicher verarbeiten solL Als Hauptspeicher kann ein groBer 
Halbleiterspeicher mit 100 nsec Zykluszeit vorgesehen sein. Dazwischen kann ein schnelles Cache mit beispiels- 
weise 10 nsec Zykluszeit vorgesehen sein, welches beispielsweise innerhalb von 25 nsec normalerweise eine 

25 Instruktion dem Prozessor liefern kann. Derartige Leistungsparameter sind aufgrund von Adressierungsrech- 
nungen beim Prozessor einerseits und beim Cache andererseits in diesem betrachteten Fall mitunter realistisch. 
Das Cache wird als eine Abbildung des Hauptspeichers adressiert. Dieses Abbildungsschema kann unterschied- 
lich vorgegeben sein. 

Besonders schnell, einfach realisierbar und kostengunstig ist eine Variante, bei welcher zur Adressierung im 

30 Cache die niedrigstwertigen Bits der Hauptspeicheradresse ubernommen werden. Dieses wird als direkt abbild- 
endes Cache oder Direct-Map-Cache bezeichneu Es sind beispielsweise 1024 oder auch 4096 Speicherworte des 
Hauptspeichers ins Cache ladbar. Diese Speicherworte sollen bevorzugt blockweise ins Cache geladen werden. 
Als BlockgroBe sind 4 bis 16 Worte ublich. Dieser Erfahrungswert ist beispielsweise dadurch begrundet, daB 
nach 4 bis 16 Instruktionen eine Sprunginstruktion folgt zumindest im Durchschnitt bei sehr vielen Programmers 

35 Zur Beschleunigung kann das Cache eine vorausschauende Ladetechnik erhalten, von welcher auf Verdacht 
spater voraussichtlich benotigte Hauptspeicherinhalte in das Cache vorsorglich geladen werden konnen, insbe- 
sondere bei einer Multiprozessor-Architektur. Ein derartiges Cache kann als ein Snoopy-Cache mit Lookahead- 
Ability realisiert sein, so daB insbesondere beim Andern von Daten eine Inkonsistenz zwischen den Inhalten von 
Cache und Hauptspeicher vermieden wird, indem das Cache den Bustransfer des Hauptspeichers zusatzlich 

40 kontrolliert betreffend eines noch ausstandigen Write-Back. 

Bei einem derartigen schnellen und leistungsfahigen Direct- Map-Cache tritt haufig ein Thrashing auf, welches 
auch Verdrangung ger ..nm wird und dadurch zustandekommt, daB der Prozessor beispielsweise hintereinander 
auf Speicherinhalte zugreift, welche im Hauptspeicher jeweils auf verschiedenen AdreBpegein angeordnet sind, 
jedoch zufolge des Abbildungsschemas nur in denselben Cacheblock geladen werden konnen. Selbst bei einer 

45 leistungsfahigen Look-ahead-Technik muB der Prozessor Wartezyklen einlegen, bis diese Dateninhalte aus dem 
Hauptspeicher jeweils in das Cache geholt sind. Deshalb wird oft ein komplexeres Abbildungsschema verwen- 
deL 

Dieses Abbildungsschema kann anhand eines Ersetzungsalgorithmus zum Plazieren von in das Cache gelade- 
nen Blocken vorgesehen sein. Der ersetzte Block kann beispielsweise mittels Zufallsgenerator ausgewahlt sein. 

50 Es kann beispielsweise ein First-In-First-Out (FIFO) Prinzip vorgesehen sein mit Einhaltung einer Reihenfolge 
beim Laden und Ersetzen. Ebenso kann ein effektives jedoch auch aufwendiges Prinzip eines Least-Frequently- 
Used (LFU) oder eines Least- Recently-Used (LRU) vorgesehen sein, so daB die Haufigkeit eines Zugriffs zu 
jedem Block registriert und verglichen wird, oder daB die Zeitspanne seit dem letzten Zugriff zu jedem Block 
gemessen und verglichen wird. 

55 Bei diesen Varianten kann jeder Datenblock des Hauptspeichers auf jeden Cacheblock abgebildet sein. Seine 
Adressierung im Cache erfolgt bevorzugt nach einem assoziativen Prinzip. Ein derartiges Cache wird Fully-As- 
socative-Cache oder vollassoziatives Cache genannt 

Dieses vollassoziative Cache hat die bestmdglichen Voraussetzungen zur Erzielung einer optimalen Hitrate 
insbesondere mit Verwendung einer Lookahead-Technik, so daB ein vom Prozessor benotigter Speicherinhalt 

60 bereits ins Cache geladen ist und daraus geladen werden kann, was auch als Hit bezeichnet wird, im Gegensatz 
zu einem Miss, welcher dann vorliegt, wenn im Cache der vom Prozessor benotigte Speicherinhalt nicht vorliegt, 
und aus dem Hauptspeicher geholt werden muB, wahrend der Prozessor Wartezyklen ausfuhrt. Trotz optimaler 
Hitrate ist das vollassoziative Cache relativ langsam. Dies ist insbesondere durch die aufwendige assoziative 
Adressierung ebenso wie durch den aufwendigen Ersetzungsalgorithmus begriindet. 

65 Vielfach wird daher ein insbesondere auch kostengiinstigerer KompromiB angewendet in Form eines teilasso- 
ziativen Cache. Bei diesem teilassoziativen Cache kann ein bestimmter Speicherinhalt des Hauptspeichers nicht 
nur auf einen einzigen Cacheblock wie beim Direct-Map-Cache abgebildet werden, sondern gemaB eines 
Ersetzungsalgorithmusses auf einen von wenigen Cacheblocken. Oblich sind zwei, vier oder acht Cacheblocke 
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bei den sog. 2-way-Caches, 4-way-Caches, 8-way-Caches. Demzufolge wird das Direct-Map-Cache auch als 
1 -way-Cache bezeichnet 

Zwar ist das teilassoziative Cache nicht so schnell wie das Direct- Map-Cache, jedoch bedeutend schneller wie 
das vollassoziative Cache. Zwar ist die Hitrate beim teiiassoziativen Cache nicht so giinstig wie beim vollassozia- 
^r; tiven Cache, jedoch bedeutend giinstiger wie beim Direct- Map-Cache. Zwar ist das teilassoziative Cache nicht 
l^so kostengunstig wie das Direct- Map-Cache, jedoch bedeutend kostengiinstiger wie das vollassoziative Cache. 
Eine detailliertere Darstellung dieser Situation ist beispielsweise in den Kursunterlagen zum "Seminar Ober 
RISC-Architekturen", Deutsche Informatik-Akademie, Dez. 1989, Kapitel 3, "Speicher-Architektur", Seite 3-1 bis 
3-40 erlautert. 

Eine detailliertere Darstellung von Speicherhierarchien ist beispielsweise im Buch "Computer-architecture: a 
quantitative approach", David A. Patterson, John L. Hennessy, ISBN 1-55880-069-8, 1990, Morgan Kaufmann 
Publishers Inc, Kapitel 8, "Memory-Hierarchy Design" Seite 403—425 erlautert 

Erste Ansatze als einen Beitrag der Software zur Linderung des Problems der Erzielung besserer Hitraten ist 
enthalten in den MlPS-Compilern. Eine Anwendung der Hilfsmittel CORD und CORD2 ist insbesondere 
angegeben in "RISC/os (UMIPS) Users Reference Manual", Volume I (System V), Besteilnummer 3204DOC, 
Febr. 1989, MIPS Computer Systems Inc. Dabei soli versucht werden durch Anwendung beispielsweise von 
CORD in der Prozedurebene jeweils nur innerhalb eines Moduls eine gestrafftere Anordnung der Prozeduren 
zu erreichen. Ebenso kann versucht werden durch Anwendung beispielsweise von CORD2 aus vorliegenden 
Prozeduren einzelne Basisblocke herauszulosen und diese in einem neuen Bereich zusammenzustellen. 

Die der Erfindung zugrundeliegende Aufgabe besteht darin, daB ein weiteres Verfahren angegeben wird 
welches eine Erzielung besserer Hitraten ermoglicht 

Diese Aufgabe ist gelost bei einem Verfahren mit den im Patentanspruch 1 angegebenen Merkmalen. 

Der Erfindung liegt die Erkenntnis zugrunde, daB bisherige Ansatze zu Verbesserungen bei auftretenden 
Cache-Kollisionen eine groBe Komplexitat aufweisen sowie mit hohen Kosten verbunden sind. Es ist das 
Ergebnis der Erfindung, daB ein Weg angegeben wird, auf welchem ein bereits groBes MaB an Verbesserung 
erzielt wird mit einer einfachen Methode und geringen Kosten. Die groBe Komplexitat wird entscheidend 
vernngert, indem ausschlieBlich in der Linkphase des Compilers eingegriff en wird. 

Dabei soli eine Link-Anordnung der Module variiert und untersucht werden, so daB zur Durchfuhrung des 
Link-Verfahrens jene Link-Anordnung ausgewahlt werden kann mit einer geringen Anzahl von Cache-Misses. 
Es steht somit dem Benutzer des Compilers frei, eventuell von sich aus groBere oder kleinere Module abzufas- 
sen. 

Als ein zusatzlicher Vorteil ergibt sich somit, daB beispielsweise fur Debugging, Fehlertraces, Simulationen, 
und ahnhche Anwendungen an der vom Benutzer abgefaBten Form des Quellcodes der Programme keine 
Veranderungen vorgesehen sind. 

ErfindungsgemaB entscheidend ist der Einsatz eines Untersuchungsverfahrens zur Feststellung und bewerten- 
den Markierung aller zu bindenden Module betreffend ihrer Cache-Kollisions-Charakteristika in einer bestimm- 
ten Link-Anordnung dieser Module. Somit kann bei Variation der Link-Anordnung anhand dieses Untersu- 
chungsverfahrens eine Bewertung erfolgen. 

Dieses Untersuchungsverfahren basiert auf einer simulationsartigen Durchfuhrung eines Ablaufs anhand der 
Module, so daB als Ergebnis ein Trace- Pro tokoll erhalten wird, in welchem Speicherzugriffe aufgelistet werden. 
Dieses simuiierte Trace-Protokoll wird temporar archiviert, so daB es fur das Untersuchungsverfahren wieder- 
holt verfugbar ist 

Anhand dieses simulierten Trace- Pro tokolls und einer zusatzlich vorzugebenden jeweiligen Link-Anordnung 
kann vom Untersuchungsverfahren zu jedem getraceten Speicherzugriff entsprechend dessen Haufigkeit beim 
simulierten Ablauf beispielsweise eine Einzelstatistik erstellt werden bestehend aus einer aufsummierten Anzahl 
von Cache-Misses. Bei der Erstellung dieses Statistik-Protokolls soil das jeweils beim Ablauf des Programmes 
vorgesehene Cache zugrundegelegt und simulationsartig nachgebildet werden vom Untersuchungsverfahren. 

Zusatzlich kann vom Untersuchungsverfahren beispielsweise eine Modulstatistik erstellt werden, indem fur 
jeden einzelnen Modul in der jeweils vorgegebenen Link-Anordnung je eine aufsummierte Anzahl von Cache- 
Misses innerhalb je eines sowie zwischen je zweien der Module ermittelt wird. 

Zusatzlich kann vom Untersuchungsverfahren beispielsweise eine Gesamtstatistik erstellt werden, indem zu 
der jeweils vorgegebenen Link-Anordnung eine insgesamt aufsummierte Anzahl von Cache-Misses ermittelt 
wird. ' 

Aufgrund der vom Untersuchungsverfahren aufbereiteten Einzelstatistik, Modulstatistik, Gesamtstatistik 
erfolgt beispielsweise die Bewertung der jeweils untersuchten Link-Anordnung. Es ist daraus erkennbar, ob 
einzelne Programmstellen in einzelnen Modulen vorhanden sind, welche beispielsweise aufgrund ihrer hohen 
dynamischen Aktivitat AnlaB geben zu einer groBen Anzahl von Verdrangungen bei ihrer Abbildung auf das 
Cache. 

Derartige Programmstellen mit hoher dynamischer Aktivitat werden auch Hot-Spots genannt Bei sehr vielen 
Programmen wird ein Anteil von rund 90% der Rechenzeit von nur 10% der Instruktionen bendtigt Falls 
insbesondere diese Hot-Spots haufige Verdrangungen im Cache verursachen, so ist die Performance nur gering. 
Gelingt es somit insbesondere fur diese Hot-Spots haufige Verdrangungen zu vermeiden, so ist die Performance 
noch. 

. Somit ist erkennbar, daB die Anzahl jener Verdrangungen bei Speicherzugriffen zufolge eines Sprunges oder 
eines AdreBzugriffes beispielsweise zwischen zwei Modulen beeinfluflbar ist, indem diese beiden daran beteilig- 
ten Module beziiglich des AdreBpegels relativ zueinander verschoben werden. 

Dies kann beispielsweise dadurch erreicht werden, indem innerhalb der Link-Anordnung zwischen diesen 
beiden betrachteten Modulen eine Liicke eingefugt wird. 
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Eine derartige Verlangerung betreffend die Link-Anordnung ist jedoch zumeist nicht erwunscht Diese 
relative AdreBpegelverschiebung kann insbesondere auch ohne eine Verlangerung der Link-Anordnung da- 
durch erreicht werden, daB wenigstens einer von diesen beiden betrachteten Modulen mit einem anderen Modul 
yenauscht wird bezuglich seiner Reihenfolge in der Link-Anordnung. Bei derartigen Verschiebungen ist es nicht 
5 immer gewahrleistet, daB eine Verbesserung erzielt wird, also eine Verringerung der Anzahl von Cache-Misses. 
Bei einer geringen Anzahl sowie lokalen ausgepragten Hot-Spots ist eine Verschiebung einzelner Module 
erleichtert kontrollierbar bezuglich ihrer Auswirkungen auf eine Vermeidung bisheriger oder eine Schaffung 
zusatzlicher Verdrangungen im Cache. Insbesondere bei einer groBeren Anzahl von Hot-Spots wird deren 
Abbildung auf das Cache unter Vermeidung von Cache-Kollisionen schwieriger. Als Ergebnis der Erfindung 
io steht somit ein Untersuchungsverfahren zur Verfugung, durch welches jede beliebige Link-Anordnung unter- 
sucht werden kann und verglichen werden kann. Mittels dieses Untersuchungsverf ahrens ist aufzeigbar, daB sehr 
viele Programme nur wenige sowie lokal ausgepragte Hot-Spots aufweisen. Demzufolge genugt es, bei sehr 
vielen Programmen vom Optimierungsproblem durch eine Beschrankung die Komplexitat entscheidend zu 
yerringern, indem nur die Link-Anordnung der Module des Programmes variiert wird. Wahrend also bei sehr 
is vielen Anwendungsfallen diese entscheidend einfache Methode in vorteilhaft rascher Weise erfolgreich anwend- 
bar ist, kann es bei sehr wenigen Anwendungsfallen auch vorkommen, daB eine ideale Reduzierung der Cache- 
Misses nicht immer erzielbar ist 

Zur Vermeidung dieser wenigen Ausnahmefalle konnen insbesondere beim Quellencode des Programmes 
besonders groBe Module vermieden werden, so daB auch in diesen wenigen Ausnahmefallen die entscheidend 
20 einfache Methode des Vanierens der Link-Anordnung der Module vorteilhaft einsetzbar ist. ErfindungsgemaB 
ist zumindest bei sehr vielen Anwendungsfallen durch diese vorteilhaft einfache Methode des Vanierens der 
Unk-Anordnung rasch ein Programm erstellbar, fur welches ein kostengunstiges Cache mit einem einfacheren 
Abbildungsschema vorteilhaft einsetzbar ist, also ein teilassoziatives Cache, insbesondere sogar auch ein Direct- 
Map-Cache. 

25 Falls beispielsweise schon beim ersten Mai, also mit der anfangs vorliegenden Link-Anordnung vom Untersu- 
chungsverfahren ein Statistikprotokoll erstellt wird mit einer zufriedenstellend kleinen Anzahl von Cache-Mis- 
ses, so daB es sich nicht lohnt, eine andere Link-Anordnung zu untersuchen, so wird dies nach der Durchfuhrung 
des Untersuchungsverfahrens erkannt, und fur diese Link-Anordnung kann das Link-Verfahren durchgefuhrt 
werden. Anderenfalls wird die untersuchte Link-Anordnung mit ihrem zugehorigen Statistik-Protokoll temporar 

30 archiviert und es wird die Link-Anordnung variiert, so daB eine neue und noch nicht untersuchte Link-Anord- 
nung gebildet wird Fur diese neue Link-Anordnung wird das Untersuchungsverfahren erneut durchgefuhrt. 
Danach wird emeut uberpruft, ob fur diese neue Link-Anordnung eine zufriedenstellend kleine Anzahl von 
Cache-Misses erreicht ist 

Solange eine vorgesehene Anzahl von Link-Anordnungen noch nicht untersucht ist, werden weitere Link-An- 
35 ordnungen gebildet und im Untersuchungsverfahren untersucht Zu jeder untersuchten Link- Anordnung soil ihr 
zugehonges Statistik-Protokoll temporar archiviert werden. Sobald die vorgesehene Anzahl von Link-Anord- 
nungen untersucht ist, wird unter den untersuchten und temporar archivierten Link-Anordnungen jene ausge- 
wahlt mit der genngsten Anzahl von Cache-Misses zur Durchfuhrung des Link-Verfahrens. 

Es ist demzufolge ein Weg aufgezeigt, wie ein Untersuchungsverfahren durchgefuhrt werden soli mit Erstel- 
40 Jung eines Staustikprotokolls anhand dessen eine untersuchte Link-Anordnung bewertet werden soli Diese 
Untersuchung und Bewertung ist dabei in einer vorteilhaften Weise vollig unabhangig vom Variieren der 
Link-Anordnung. 

Vorteilhaft verwendbar ist dieser aufgezeigte Weg beispielsweise zur Erprobung unterschiedlicher Methoden 
zum Variieren der Link-Anordnung. Insbesondere kann eine beliebige Methode benutzt werden zum Variieren 
45 der Link-Anordnung. 

Als ein vorteilhaftes Ergebnis des erlauterten Weges zur Auffindung einer Link-Anordnung mittels welcher 
a uu^ tratC v daS Cache beim Ablauf verbessert werden kann, ist es ermoglicht, ein Cache mit einfachem 
Abbildungsschema zu benutzen, beispielsweise ein Direct- Map-Cache. Ebenso wird es ermbglicht, ein kleineres 
Cache emzusetzen. Aufgrund dieser Vorkehrungen innerhalb der Software konnen demzufolge Hardware-Ar- 
50 chuekturen entscheidend vereinfacht werden, so daB sich daraus insbesondere vorteilhaft kosteneunstiee Lo- 
sungen ergeben. 6 

Eine bevorzugte Ausfuhrungsform der Erfindung ist dadurch gekennzeichnet, daB eine Monte-Carlo- Metho- 
de benutzt wird zum Variieren der Link-Anordnung. 

Beispielsweise mittels eines Zufallsgenerators wird bestimmt, welche Link-Anordnung von alien prinzipiell 
55 moglichen als nachstes untersucht wird. In einer vorteilhaften Weise konnen damit beliebige Programme 
untersucht werden mit einer guten Wahrscheinlichkeit eine zufriedenstellende Link-Anordnung aufzufinden 
Weitere Vorteile ergeben sich daraus, daB jedes beliebige Cache eingesetzt werden kann, insofern dieses im 
Untersuchungsverfahren beriicksichtigt ist 

Die Vorteile bei der Monte-Carlo-Methode ergeben sich insbesondere daraus, daB zwischen den einzelnen 
60 untersuchten Link-Anordnungen keinerlei Korrelation besteht oder erforderlich ist Wie insbesondere bei 
Iterationsverfahren als ein entscheidendes Kriterium erforderlich, sind Stabilitat oder Konvergenz in diesem 
Monte-Carlo- Verfahren von seinem Prinzip her ohne jede Bedeutung. Es kann also jede, insbesondere auch jede 
noch so ungewohnliche, funktionelle Abhangigkeit zwischen Link-Anordnung und Statistikprotokoll vorliegen 
ohne daB dies die Durchfuhrbarkeit oder den Erfolg des Variierungsverfahrens beeintrachtigt ' 
65 Eine weitere bevorzugte Ausfuhrungsform der Erfindung ist dadurch gekennzeichnet, daB eine Plottunesta- 
belle erstellt wird beim Untersuchen der Link-Anordnung. * 

Zu einer untersuchten Link-Anordnung soil im Untersuchungsverfahren beispielsweise zu jedem Soeicherzu- 
griff je ein Plott erstellt werden. Dabei sollen AdreBpegel-gerecht, die Speicherzugriffe aus dem Traceprotokoll 
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umgesetzt werden und auf das Cache abgebildet werden. Zu jedem Modul soil je ein Cache-Plott erstellt werden 
m dem zu jedem Cache-Block aufsummiert geplottet wird die darauf abgebildete Zi^riffLnlVhi n?fc ^ rd . en ' 

letzten Moduls nach hinten, msbesondere betreffend dessen nachfolgend trlauterte KoSLSoW^n^ 
• ^ ChC K d ^ ^ " n D l , ersuchenden Link-Anordnung soli beispielsweise zu jldem J^^LS?S!SSd!2 P « 

Aoilyie der 2«gru»delie S e„de,. Spwn.dk zeigt daB s «hr T °° 

sowie zwhchen je zw%tul^uSJt'^ZZi^^Sf Spocherzugriffe,, i„ ne rhalb je ernes 

tS^dt ?! Inh H altC der ^e-Blacke erfo.gen kann zur SmSnfvo^ SC,n ' 
d^gLfch^^^^ 

oder ein Verweis realisien Sn torn Zu J^t- Mark,erung em e etra g en "t. welche als ein Symbol 

einzige ^xngmg^^^^J^^}^^^ V °? gle j Chen S Pe^herzugriffen kann eine 

so 

Adaptieren des Trace-Protokolls ist es in diesem Fall iJ* 7 ^ I ,■ T S I- lff £ t . abel,e ermittelt werden. Zum 
aktualisieren, und du^Sea^I^^S^'*^ erforder1 "*. d - E.ntrage der Zugriffstabelle zu 

da ° beta Variieren der 

Module der Lin*Anord™n^ eine Reihenfolge der 

hinten gereiht verschoben VSd ESS daB ffF™le^^ n SnSS^St^? IU, H ^ ""«* 
Re.henfolge hintere nach vorne gereiht verschoben wirj so^e d*t£Z?SJ£^ bevorzugt der in der 
mark.ert wird, sowie daB markiert wird, ob ein Modul bereits verLhoLn ist g bevorzu « ten Reihun g 

w In^ner vorteuhaften Weise kann so rasch eine Link-Anordnung bezOg.ich der Cache-Misses verbessert 

^^S^^£^^^SS£S^ we,c K h . e nur innerha,b eines der Module 

Falls fur diesen betroffenen Modul noch Sine Ric^tu^Tr h 2 " gt l T ea gereihl ve "^oben werden. 
daB er nach hinten ger^^t^^^^tS^^^ 8 ^ 5^™* markiert ist ' wird markierl . 
mit dem nachfolgend gJ^^SSS^S^M be,Sp ' e,SWe,Se SO erfo, S en - daB <«««■ betroffene Modul 65 

Verdrangungen bei Speicherzugriffen innerhalb eines Moduls sind eher selten und k«„ n u • • 

Modulen vorhegen. deren Lange gr6Ber ist als das Cache. Bei graBert SclTe-B^TkTnn^n derartige 
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Verdrangungen verbessert unterdruckt werden. Sollten bei einern derartigen Speicherzugriff die Hauptspei- * 
cheradressen genau um die Lange des Cache oder einem Vielfachen hiervon auseinanderiiegen, so kann bei- 
spielsweise bei einem Direct-Map-Cache eine derartige Verdrangung durch ein Verschieben des betroffenen 
Moduis nicht beeinfluBt werden. Je groSer die Abweichung von der genauen Lange des Cache ist, desto besser 
5 kann die Verdrangung vermieden werden, in dem beim Verschieben des betroffenen Moduis dessen Aufteilung 
auf die Cache-Blocke sich so verandern kann, daB die eine der Hauptspeicheradressen des Speicherzugriffs 
gerade noch auf den einen Cache-Block abgebildet wird, wahrend die andere Hauptspeicheradresse des Spei- 
cherzugriffs bereits auf den benachbarten Cache-Block abgebildet wird, so daB dadurch eine Verdrangung 
vermieden wird Eine derartige Anderung kann durch ein Vertauschen von beispielsweise benachbarten Modu- 
lo len erreicht werden, falls der getauschte Modul eine Lange aufweist, welche kein genaues Vielf aches von einem 
Cache-Block ist, was insbesondere bei groBeren Cache-Blocken auch seltener der Fall ist 

Es kann vorgesehen sein, daB beispielsweise, falls der betroffene Modul an die letzte Stelle gereiht worden ist, 
vor diesem Modul eine Lucke eingefugt wird, deren Lange variiert wird schrittweise bis eine Lange der Lucke 
beispielsweise gleich einem Cache-Block erreicht ist. 
1 5 Es kann vorgesehen sein, daB fur einen an letzter Stelle gereihten Modul die andere Richtung, also nach vome, 
als bevorzugte Reihung markiert wird. Ebenso kann vorgesehen sein, daB fur einen an erster Stelle gereihten 
Modul die andere Richtung, also nach hinten, als bevorzugte Richtung markiert wird. Falls demzufolge eine 
Richtung der bevorzugten Reihung fur den betroffenen Modul bereits markiert ist, so soli diese beim Verschie- 
ben beachtet werden. Ebenso soil ein Modul, fur welchen beim Variieren einer bestimmten Link-Anordnung 
20 bereits markiert worden ist, daB er schon verschoben worden ist, nach Moglichkeit nachfolgend nicht noch 
weiter verschoben werden. 

Bei einem Plottungseintrag von Cache-Misses fur Speicherzugriffe, welche zwischen zweien der Module 
erfolgen, wenn also zwei Module betroffen sind, so soli der in der Reihenfolge der Module von der zu variieren- 
den Link-Anordriung an hinterer Stelle enthaltene Modul bevorzugt nach vorne gereiht verschoben werden. Bei 

25 Verdrangungen zufolge eines Speicherzugriffs zwischen zwei betroffenen Modulen genugt es, nur einen von den 
beiden zu verschieben, so daB die eine Hauptspeicheradresse des Speicherzugriffs auf den selben Cache-Block 
abgebildet verbleibt, wahrend die zweite Hauptspeicheradresse des Speicherzugriffs zufolge des Verschiebens 
auf einen anderen Cache-Block abgebildet wird Insbesondere erfolgt in einer vorteilhaften Weise dadurch, daB 
nur einer von beiden betroffenen Modulen verschoben wird eine geringere Anderung der Link-Anordnung, als 

30 wenn beispielsweise beide betroffenen Module verschoben werden. Dies ist insbesondere fur die Iteration beim 
Variieren der Link-Anordnung vorteilhafL Falls beispielsweise die beiden von der Verdrangung betroffenen 
Module nebeneinander liegen, werden somit nur diese beiden verschoben, und alle ubrigen Module erfahren 
keine Anderung ihrer Reihenfolge. 

Es soli stets gepruft werden, ob fur zumindest einen von den beiden von der Verdrangung betroffenen Module 

35 eine Richtung bereits markiert ist zur bevorzugten Reihung. Falls beispielsweise der vordere von den beiden 
betroffenen Modulen bereits markiert ist, bevorzugt nach vorne gereiht zu werden, so soil dies ausgefuhrt 
werden. Anderenfalls soli bevorzugt der hintere von beiden betroffenen Modulen nach hinten gereiht werden, 
falls dieser bereits markiert ist bevorzugt nach hinten gereiht zu werden. Falls fur keinen von den beiden 
betroffenen Modulen eine bevorzugte Richtung markiert ist, so soil der hintere von den beiden betroffenen 

40 Modulen markiert werden als nach vorne zu verschieben, und dies soil ausgefuhrt werden. 

Einzelne Varianten, wann ein Modul markiert wird, und ob als nach vorne oder nach hinten zu verschieben, ob 
und wann derartige Markierungen eventuell wieder zu loschen sind sollen stets so erstellt sein, daB durch diese 
Markierungen gewahrleistet ist, daB moglichst viele unterschiedliche Link-Anordnungen beim Variieren erzeug- 
bar sind, und eine Rekursion beim Variieren weitgehend vermieden wird. 

45 Eine weitere bevorzugte Ausfuhrungsform der Erfindungsform ist dadurch gekennzeichnet, daB beim Variie- 
ren der Link-Anordnung eine Lucke eingefugt wird 

Eine derartige Lucke kann beispielsweise als ein zusatzlicher Modul erzeugt sein, und beispielsweise an 
vorderster Stelle in die Reihenfolge der Module der Link-Anordnung eingefugt werden, und in der Folge beim 
Variieren, wie ein normaler Modul behandelt, verschoben, und letztlich auch gebunden werden. Es kann auch 

50 vorkommen, daB mehrere derartige Lucken eingefugt werden, beispielsweise je eine nach einer bestimmten 
Anzahl von Variierungsschritten. Die LuckengroBe kann auf das Cache abgestimmt sein, und beispielsweise 
CacheblockgroBe oder ein Vielfaches betragen, oder beispielsweise eine bestimmte GroBe, beispielsweise auch 
klein sein. Die GroBe einer derartigen Lucke kann auch abgestimmt sein, und innerhalb eines Variierungsschrit- 
tes als gunstig ermittelt sein. 

55 Die Erfindung wird anhand der Figuren naher erlautert, in welchen Ausfiihrungsbeispiele angegeben sind. 

Die Fig, 1 zeigt ein AblaufubersichtsfluBdiagramm eines Verfahrens zum maschinellen Erstellen eines aus 
mehreren Modulen zu bindenden Programmes. 

Die Fig. 2 zeigt ein AblaufubersichtsfluBdiagramm eines Untersuchungsverfahrens des Verfahrens zum Er- 
mitteln der Reihenfolge eines aus mehreren Modulen zu bindenden Programmes. 

60 Die Fig. 3 zeigt ein AblaufubersichtsfluBdiagramm eines Variierungsverfahrens des Untersuchungsverfah- 
rens. 

Die Fig. 4 zeigt ein AblaufubersichtsfluBdiagramm eines Verfahrens zum Variieren der Link-Anordnung beim 
Variierungsverfahren. 

Die Fig. 5 zeigt ein AblaufubersichtsfluBdiagramm eines Verfahrens zum Verschieben eines Moduis beim 
65 Verfahren zum Variieren der Link-Anordnung. 

Die Fig. 6 zeigt ein AblaufubersichtsfluBdiagramm eines Verfahrens zum Prufen von vertauschten Modulen 
auf eine erste und eine letzte Stelle beim Verfahren zum Verschieben eines Moduis. 

Die Fig. 7 zeigt Speicherzugriffe von Modulen sowie deren Notierung in einem Trace- ProtokolL 
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Die Fig. 8 zeigt eine Abbildung eines Hauptspeichers auf ein Cache. 
Die Fig. 9 zeigt eine erste Link-Anordnung der Module im Hauptspeicher 
Die Fig. 10 zeigt eine zweite Link-Anordnung der Module im Hauptspeicher 
Die Fig. 1 1 zeigt eine dritte Link-Anordnung der Module im Hauptspeicher. 
In Zusammenhang mit den Figuren werden folgende Bezugszeichen verwendet: 

V1000, . . . V4000 Verfahrensschritte 



Ml,... M4 

S1....S6 

Z12....Z64 

TRACE 

HS 

DMC 

CB 

ADR 

MISS 



Module 

Programmstellen 

Speicherzugriffe 

Trace-Protokoll 

Hauptspeicher 

Direct-Map-Cache 

Cache-Block 

Hauptspeicheradresse 

Cache-Miss, Anzahl von Cache-Misses 



10 



15 



bei ein Link-Verfahren durchgefuhrt 

fflr welche eine ^^int^t^J^SSJS^^S^ ™™ Chi ™ ^-Anordnung gebunden, 
vSSS^^S^ U — hungsverfahren, Es werden die 

J^SSS^^^S^^ V32 °° • m * ahrU bd WClChem ^-Misses prognostic werden 

fO^^^J^S^^^^Sk^ S e i WeIChem ^ Varii -«^verfahren durchge- 
variiert. indem eine ReTen folge de?M^ u e verS^ der Mod " Ie 

Oder indem beispielsweise Module terVauscht Zrten ttTdtettue Z T Lu fT eingefQgt werden - 
rensschritt 3100. Anderenfalls, also falls eine ausSend nTedr^ 

Die Fig. 3 zeigt ein Beispiel fur den Verfahrensschritt V3300des Variierungsverfahrens 
eine noch nicht untersuchte Link-Anordnung Falls dies der FaH i« wirH Hi« f L,n k-Anordnung vorliegt. also 

r ■ X^S'T V^T^ 5 ^^" 5 ^ <i vSaSi^^S^ 1 " und 2ur DurchfQh " 

des Link- Verfahrens wird der Verfahrensschritt V3300 beendet 'estgenalten, und zur Durchfuhrung 
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Die Fig. 4 zeigt ein Beispiel fiir den Verfahrensschritt V3400, bei welchem die zuletzt untersuchte Link-Anord- 
nung variiert wird 

Es wird der Verfahrensschritt V3410 ausgefuhrt bei welchem iterativ alle Plottungseintrage untersucht 
werden, bei welchen Cache-Misses eingetragen sind Sowie alle Plottungseintrage iterativ bearbeitet sind wird 
5 der Verfahrensschritt V3400 beendet 

Fiir jeden Plottungseintrag, bei welchem Cache-Misses eingetragen sind, folgt iterativ der Verfahrensschritt 
V3411. Es wird gepruft ob fur diesen Plottungseintrag einer oder zwei Module betroffen sind, sowie ob 
zumindest einer dieser betroffenen Module bereits als verschoben markiert ist Falls dies der Fall ist wird die 
Bearbeitung dieses Plottungseintrages beendet, und es folgt der Verfahrensschritt V3410. 
io Anderenfalls, also falls der eine betroffene Modul oder falls beide betroffenen Module von diesem Plottungs- 
eintrag als noch nicht verschoben markiert sind, so folgt der Verfahrensschritt V3412. Es wird verzweigt 
abhangig davon, ob ein oder zwei betroffene Module fur den Plottungseintrag vorliegen. 

Falls fur den Plottungseintrag nur ein Modul betroffen ist, so folgt der Verfahrensschritt V3450, bei welchem 
dieser betroffene Modul verschoben werden solL 
is Anderenfalls, also falls fiir den Plottungseintrag zwei Module betroffen sind so folgt der Verfahrensschritt 
V3420. Es wird gepruft, ob der in der Reihenfolge der Link-Anordnung vordere von den beiden betroffenen 
Modulen markiert ist also nach vorne zu verschieben. Falls dies der Fall ist, so folgt der Verfahrensschritt V3450, 
bei welchem der vordere betroffene Modul verschoben werden soil. 
Anderenfalls, also falls der vordere betroffene Modul nicht markiert ist als nach vorne zu verschieben, so folgt 
20 der Verfahrensschritt V3430. Es wird gepruft, ob der in der Reihenfolge der Link-Anordnung hintere von den 
beiden betroffenen Modulen markiert ist als nach hinten zu verschieben. Falls dies der Fall ist, so folgt der 
Verfahrensschritt V3450, bei weichem der hintere betroffene Modul verschoben werden soil 

Anderenfalls, also falls der hintere betroffene Modul nicht markiert ist als nach hinten zu verschieben, so folgt 
der Verfahrensschritt V3440. Es wird der hintere betroffene Modul markiert als nach vorne zu verschieben. Es 
25 soil der hintere betroffene Modul verschoben werden. 

Es folgt der Verfahrensschritt V3450, bei welchem ein betroffener Modul verschoben werden soil, welcher 
bestimmt ist aufgrund der Verfahrensschritte V3412, V3420, V3430 oder V3440. Dies ist gemaB Verfahrensschritt 
V3412 der eine betroffene Modul, oder gemaB Verfahrensschritt V3420 der vordere betroffene Modul, oder 
gemaB der Verfahrensschritte V3430 oder V3440 der hintere betroffene Modul. 
30 Es folgt der Verfahrensschritt V3410 als eine Iterationsschleife. Falls beim Verfahrensschritt V3410 kein 
weiterer Plottungseintrag mit Cache-Misses mehr vorgefunden wird, so ist die Iterationsschleife beendet Es 
wird der Verfahrensschritt V3400 beendet 

Die Fig. 5 zeigt ein Beispiel fur den Verfahrensschritt V3450, bei welchem der betroffene Modul verschoben 
werden soli. 

35 Es wird der Verfahrensschritt V3451 ausgefuhrt Es wird gepruft, ob der zu verschiebende Modul in der 
Reihenfolge der Link-Anordnung an letzter Stelle ist Falls dies der Fall ist, folgt der Verfahrensschritt V3470, 
und der zu verschiebende Modul wird nach vorne verschoben. 

Anderenfalls fcjlgt der Verfahrensschritt V3452. Es wird gepruft, ob der zu verschiebende Modul markiert ist 
als nach vorne zu verschieben. Falls dies nicht der Fall ist, folgt der Verfahrensschritt V3460, und der zu 
40 verschiebende Modul wird nach hinten verschoben. 

Anderenfalls folgt der Verfahrensschritt V3453. Es wird gepruft ob der zu verschiebende Modul in der 
Reihenfolge der Link-Anordnung an erster Stelle ist Falls dies der Fall ist folgt der Verfahrensschritt V3460, und 
der zu verschiebende Modul wird nach hinten verschoben. Anderenfalls folgt der Verfahrensschritt V3470, und 
der zu verschiebende Modul wird nach vorne verschoben. 
45 Falls der zu verschiebende Modul nach hinten zu verschieben ist folgt der Verfahrensschritt V3460. Der zu 
verschiebende Modul wird markiert als nach hinten zu verschieben. 

Es folgt der Verfahrensschritt V3461. Der zu verschiebende Modul wird mit dem in der Reihenfolge der 
Link-Anordnung nachfolgenden Modul vertauscht und es folgt der Verfahrensschritt V3480. 

Falls der zu verschiebende Modul nach vorne zu verschieben ist folgt der Verfahrensschritt V3470. Der zu 
so verschiebende Modul wird markiert als nach vorne zu verschieben. 

Es folgt der Verfahrensschritt V3471. Der zu verschiebende Modul wird mit dem in der Reihenfolge der 
Link-Anordnung vorhergehenden Modul vertauscht 

Es folgt der Verfahrensschritt V3480. Die beiden soeben vertauschten Module werden markiert als bereits 
verschoben. 

55 Es folgt der Verfahrensschritt V3490. Es wird gepruft ob einer der vertauschten Module an erster oder letzter 
Stelle ist so daB in einem solchen Fall die Richtung des bevorzugten Verschiebens des Moduls gepruft und 
aktualisiert wird. 

Es wird der Verfahrensschritt V3450 beendet 

Die Fig. 6 zeigt ein Beispiel fiir den Verfahrensschritt V3490, bei welchem die beiden vertauschten Module 
60 gepruft werden. 

Es wird der Verfahrensschritt V3491 ausgefuhrt. Es wird gepruft ob der in der Reihenfolge der Link-Anord- 
nung vordere von den beiden vertauschten Modulen jetzt an erster Stelle ist Falls dies nicht der Fall ist, folgt der 
Verfahrensschritt V3495. 

Anderenfalls, also falls der vordere vertauschte Modul jetzt an erster Stelle ist folgt der Verfahrensschritt 
65 V3492. Es wird gepruft ob dieser Modul markiert ist als nach vorne zu verschieben. Falls dies nicht der Fall ist, 
folgt der Verfahrensschritt V3495. 

Anderenfalls, also falls der vordere vertauschte Modul jetzt an erster Stelle ist, und als nach vorne zu 
verschieben markiert ist folgt der Verfahrensschritt V3493. Dieser Modul wird markiert als nach hinten zu 
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verschieben. 

Es folgt der Verfahrensschritt V3495. Es wird gepruft, ob der in der Reihenfolge der Link-Anordnung hintere 
von den beiden vertauschten Modulen jetzt an letzter Stelle ist. Falls dies nicht der Fall ist, wird der Verfahrens- 
schritt V3490 beendet 

Anderenfalls, also falls der hintere vertauschte Modul jetzt an letzter Stelle ist, folgt der Verfahrensschritt 
;^ y3496 - Es wird geprtift, ob dieser Modul markiert ist als nach hinten zu verschieben. Falls dies nicht der Fall ist 
wird der Verfahrensschritt V3490 beendet. 

Anderenfalls, also falls der hintere vertauschte Modul jetzt an letzter Stelle ist, und als nach hinten zu 
verschieben markiert ist. folgt der Verfahrensschritt V3497. Dieser Modul wird markiert als nach vorne zu 
verschieben. Der Verfahrensschritt V3490 wird beendet. 

Die Fig. 7 zeigt ein Beispiel fur Speicherzugriffe Z12, Z13, Z23, Z35. Z64 von Modulen Ml, M2. M3 M4 Diese 
Module werden im Verfahrensschritt VI 000 erstellt 

e i I ! er /, r ??r am - mSt . e,le S ) im ModuI M1 erfo,gt der Speicherzugriff Z12 auf eine Programmstelle S2 im 
selben Modul Ml. Dies kann beispielsweise ein Datenzugriff sein zum Lesen oder Andern von Dateninhalten 
tbenso kann bei diesem Speicherzugriff eine Instruktion geladen werden. beispielsweise bei einer Sprunein- 
struktion an der Programmstelle S 1 zur Programmstelle S2. aprungm 
• ^ 'If, P^ammstelle SI im Modul Ml erfolgt der Speicherzugriff Z13 auf eine weitere Programmstelle S3 
im Modul M2 Die Programmstelle SI kann demzufolge beispielsweise ein Register-indizierter Datenzugriff auf 
die Dateninhalte der Programmstelle S2 oder S3 sein. Es kann die Programmstelle Si bei diesem Ausfiihrungs- 
beispiel ebenso eine beispielsweise Register-indizierte Sprunginstruktion sein zur Programmstelle S2 oder S3 
M^Li!' P r°« rammst 5j le S2 im Modul Ml erfolgt der Speicherzugriff Z23 auf die Programmstelle S3 im Modul 
M2, beispielsweise als Datenzugriff oder Sprunginstruktion. 

m£! , d ^ P K r0grammSte " e , S i im M ° du .' M2 erfol S t der Speicherzugriff Z35 auf eine Programmstelle S5 im 
Modul M4, beispielsweise als Datenzugriff oder Sprunginstruktion. 

M^,i d M r /v!' 0grai ? ,nSte,le , S6 r. im M ° dul M4 erfolgt der Speicherzugriff Z64 auf eine Programmstelle S4 im 
Modul M3, beispielsweise als Datenzugriff oder Sprunginstruktion. ""icnc at im 

Die Tabelle 1 zeigt die Lange der Module dieses Ausfuhrungsbeispieles. 



M f S m7 mT" x ri " V o 00 ° e ^ er Simulat » on des Ablaufs des Programmes anhand dieser Module 

& MhS^SS^^?*? RACE er I hal , ten> in ^ 1Chem S P eicherz "g^e aufgelistet werden gemaB 
inrer Reihenfolge beim Ablauf des Programmes. In diesem Trace-Protokoll TRACE ist bei diesem Ausfiihrunes- 
S 1 der Speicherzugriff Z 12 zweimal enthalten, der Speicherzugriff Z13 siebenmal. der Spe™£™u£fT& 

wShtlrf?r P S?^ Ugnff Z ^ dr u e ' m u a1 ' der u S P ei cherzugriff Z64 einmal. neben weiteren Speicherzugriffet 
welche bei der Erlauterung nicht naher betrachtet werden. 

Die betrachteten Speicherzugriffe Z12, Z13, Z23, Z35, Z64 werden in einer Tabelle 2 aufgelistet Ebenso ist 
eSt fT; V ° n 7 lchen \ ModuI zu t we l che e m Modul der Speicherzugriff an den betroffenen Programmstellen 
erfolgt Ebenso ist angegeben, wie oft jeder Speicherzugriff im Trace-Protokoll enthalten ist. 



Tabelle 2 



Speicherzugriff von nach 



Anzahl 



212 Ml/Sl M1/S2 

Z13 Ml/Sl M2/S3 

Z2 3 M1/S2 M2/S3 

235 M2/S3 M4/S5 

Z64 M4/S6 M3/S4 



In einer Tabelle 3 werden die Programmstellen der Speicherzugriffe aufgelistet Zu jeder betrachteten 
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Tabelle 1 

Modul: Ml M2 M3 M4 30 

Lange: 522 350 270 579 
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Tabelle 3 



Pro- Hauptspeicheradresse 
gramm- 
5 stelle 

Ml/Sl ADR-S1 «= ADR.M1 +66 

M 1 /S2 ADR32 - ADR.M 1 + 335 

M2/S3 ADR^3 = ADR.M2 + 56 

10 M3/S4 ADR^4 - ADR.M3 + 154 

M4/S5 ADILS5 - ADR.M4 + 206 

M4/S6 ADR^6 = ADR.M4+407 

15 Die Fig. 8 zeigt ein Cache DMC, auf welches ein Hauptspeicher HS abgebildet wird. Bei diesem Ausfuhrungs- 
beispiel wird ein direkt abbildendes Direct- Map-Cache DMC zugrundegelegt, in dessen 16 Cache-Blocken CB.O, 
CB.l, ...CB.15 je 16 Worter des Hauptspeichers HS ladbar sind. GemaB des direkten Abbildungsschemas 
werden die ersten 16 Worte, beginnend an einer betrachteten Adresse ADR.0 also die Speicherworte ADR.0 bis 
ADR.15, jeweils nur in den ersten Cache-Block CB.O geladen. Die nachsten 16 Worte, beginnend an einer 

20 Adresse ADR.1 6, also die Speicherworte ADR.1 6 bis ADR31, werden jeweils nur in den zweiten Cache- Block 
CB.l geladen, usw. Beginnend an einer Adresse ADR-256, sowie beginnend an einer Adresse ADR312, usw., 
werden die jeweils nachsten 16 Worte ebenso jeweils nur in den Cache- Block CB.O geladen. Beginnend an einer 
Adresse ADR^72, sowie beginnend an einer Adresse ADRJ528, usw., werden die jeweils nachsten 16 Worte 
ebenso jeweils nur in den Cache-Block CB.l geladen. Und so weiter. 

25 Falls demzufolge ein Programm in den Hauptspeicher HS geladen ist, und von einem Prozessor CPU 
abgearbeitet werden soli, so werden zunachst blockweise Teile des Programmes aus dem langsameren Haupt- 
speicher HS in die Cache-Blocke CB des schnelleren Direct- Map-Cache DMC geladen bei diesem Ausfuhrungs- 
beispiel. Zwischen dem Prozessor CPU und den in den Cache-Blocken geladenen Teilen des Programmes wird 
die ProzeBbearbeitung beim Ablauf des Programmes ausgefuhrt. Mittels einer Write- Back- Funktion werden 

30 vom Prozessor CPU in den Cache-Blocken CB ausgefuhrte Anderungen von Dateninhalten zur Aktualisierung 
der Dateninhalte im Hauptspeicher HS nachgezogen. 

Beim Ablauf des Programmes konnen spater benutzte Teile des Programmes bereits vorzeitig in den jeweili- 
gen Cache-Block CB geladen werden. Dies kann insbesondere dann erfolgen, wenn der jeweils zum Laden des 
jeweiligen Teiles des Programmes beim Direct-Map-Cache DMC jeweils zu verwendende Teil des Cache-Blok- 

35 kes CB ein ausreichend langes Zeitintervall beim Ablauf des Programmes nicht verwendet wird, so daB in diesem 
Zeitintervall aus dem langsameren Hauptspeicher HS jene Programmteile rechtzeitig in den jeweiligen Cache- 
Block CB geladen werden konnen. 

Beispielsweise konnen bei einem Ablauf des Programmes, welches an der Adresse ADR.0 beginnt, sequentiell 
die Instruktionen, 4velche in den Cache-Block CB.O geladen sind, bis zu einer beispielsweise betrachteten 

40 Hauptspeicheradresse ADR.1 1 abgearbeitet werden vom Prozessor CPU. Es ist beispielsweise an der Haupt- 
speicheradresse ADR.1 1 eine Sprunginstruktion zu einer Instruktion an der Hauptspeicheradresse ADR-274 zu 
bearbeiten. Somit konnen wahrend des Zeitintervalls, wahrenddessen die Instruktionen zwischen den Haupt- 
speicheradressen ADR.0 und ADR.1 1 im Cache-Block CB.O bearbeitet werden, Teile des Programmes von den 
Hauptspeicheradressen ADR-272 bis ADIL287 aus dem Hauptspeicher HS rechtzeitig in den Cache-Block CB.l 

45 geladen werden. 

Falls hingegen bei diesem soeben betrachteten Fall an der Hauptspeicheradresse ADR.1 1 beispielsweise eine 
Sprunginstruktion zur Hauptspeicheradresse 258 vorhanden sein sollte, so ware es beim Direct-Map-Cache 
DMC dieses Ausfuhrungsbeispieles nicht mdglich, rechtzeitig den danach benotigten Programmteil von den 
Hauptspeicheradressen ADR-256 bis ADR^71 in den hierfur vorgesehenen Cache-Block CB.O zu laden, da 

so dieser Cache-Block CB.O durch den Prozessor CPU benutzt wird zur ProzeBbearbeitung. Nach dem Bearbeiten 
der Sprunginstruktion gemaB Hauptspeicheradresse ADR.1 1, welche im Cache-Block CB.O erfolgt, muBte der 
Prozessor CPU Wartezyklen einlegen, und abwarten, bis aus dem langsameren Hauptspeicher HS jener Teil des 
Programmes, an den Hauptspeicheradressen beispielsweise von ADR-256 bis ADR-271 in den Cache-Block CB.O 
geladen isL Ein derartiger Speicherzugriff gemaB der Sprunginstruktion von der Hauptspeicheradresse ADR.1 1 

55 zum Laden der Instruktion von der Hauptspeicheradresse ADR^58 wiirde in diesem Fall eine Verzogerung der 
ProzeBbearbeitung, also einen Cache-Miss verursachen. 

Die Fig. 9 zeigt, wie die Module Ml, M2, M3, M4 gemaB einer anfangs vorliegenden Link-Anordnung, welche 
sich beispielsweise aus einer Reihenfolge beim Erstellen dieser Module ergibt, im Hauptspeicher HS angeordnet 
sind. Diese anfangliche Link-Anordnung wird im Verfahrensschritt V3000 des Untersuchungsverfahrens zu- 

60 nachst beziiglich zu erwartender Cache- Misses untersuchL Im Verfahrensschritt V3100 wird das Trace- Pro to- 
koll adaptierL Die betrachteten Speicherzugriffe Z12, Z13, Z23, Z35, Z64, welche im Trace-Protokoll TRACE der 
Fig. 7 dargestellt sind, und welche in der Tabelle 2 aufgelistet sind, und deren Hauptspeicheradressen in der 
Tabelle 3 aufgelistet sind, werden bearbeitet- Die Lange der im Hauptspeicher HS gemaB Fig. 9 ohne Lucken 
angeordneten Module ist in der Tabelle 1 angegeben. Beginnend an der betrachteten Hauptspeicheradresse 

65 ADR.0 ist der Modul Ml angeordnet, dessen Beginnadresse ADR.M1 gleich der Hauptspeicheradresse ADR.0 
ist. GemaB der Lange des Moduls Ml von 522 Worten, welche der Tabelle 1 entnehmbar ist, beginnt der Modul 
M2 bei dieser Link-Anordnung an der Hauptspeicheradresse ADR322, welche gleich ist einer Beginnadresse 
ADR.M2 des Moduls M2. GemaB der Lange des Moduls M2 von 350 Worten, welche ebenso der Tabelle 1 
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entnehmbar ist, beginnt der Modul M3 an der HauDtSDeicheradre«;e ahrot-j i u , • . . 

Beginnadresse ADR.M3. GemSB der Lange de PEddl - M3 vZ ™ , w . 72 ^ el F hc s ? m " ist dessen 

Hauptspeicheradresse ADR.1142 welc^ Jeich L d«,in KLTh W °"!," be g»nnt der Modul M4 an der 
bei welcher die Module Ml M2 M2 1 M4 forSl£te5~ ^„!ST. ^"f^ 0 ^ Bei dieser Unk-Anonlnung, 
_d,er bis vor die Hauptspeicheradresse ADFL1721 ane.nandergefugt ™d. belegen diese den Hauptspef 

-gTnle^ f g 1 d ~ * Hg. 9 dargestel.ten Link-Anord- 

die l^graininstelleS3^ an der Hauptspeicheradresse ADR335, 
adresse ADR.1026 die Programn^s^e^ 

an der Hauptspeicheradresse ADR.154Q ni^ p m0 F 9 L«/n J48, und die Programmste le S6 

tet werdea wenn sie in das Dife?, SS^^SKSS^^v?? I**"? 1 '- 0 ?" nUr dan " bearbei ' 
in welchen Cache-Block CB diese P^i^^S i^22 Be,m y erfa hrensschntt V3100 wird ermittelt, 

kann gemaB des Abbifdungs chemas d™D ^^H^^^ ^.^^ ^ Prosruam^U^ 
Direct-Map-Cache DMcjS^S^S^SlfSS^JS^ " C,nen ^ CB des 

Tabelle 4 



10 



15 



Program mstelle 



Hauptspeicheradresse 



Cacheblock 



Ml/Si 
M1/S2 
M2/S3 
M3/S4 
M4/S5 
M4/S6 



ADR.66 

ADR335 

ADR^78 

ADPU026 

ADR.1348 

ADR.1549 



CB.4 
CB.4 
CB.4 
CB.0 
CB.4 
CB.0 



■*J£2S2S5£c^^ die 6e im Ab,au, des 

in F,g. 7 auszugsweise dargesteUtc^ den im Trace-Protokoil TRACE 

Aufgrund des AbbildmgsJ he^^ Tabe11 * 2 entnehmbar sind. 

tokolls TRACE eine Reihenfolge der sSc«SriflfeS b^kiht ?ICht erf °f deriich auf *™ d d « Trace-Pro- 
Blocke zu simulieren, so daB dLus eine Belegung der Cache- 

Cache dieses Ausfiihrungsbeispieles stets bekannt istiJ F^hi^ ^ C °>? ne , n * Zumal da beim Direct-Map- 
le jeweils zu laden ist, genugt es SSSSdc^h von SSiJ ^?^* Bl *** die jeweilige Programmstel- 
zu iiberprufen, ob die beiden jewe Is betr^ der a ^elisteten Speicherzugriffe 

Cache-Block geladen werden mussea w?s e^nen 

Tabelle 5 dargestellt/ * Cache-Miss bedeutet 2ur besseren Erlauterung ist dies in 



20 



25 



30 



35 



Tabelle 5 



40 



Speicher- 
zugriff 



von 



nach 



Anzahl 



Cache-Miss 



Z12 
Z13 
223 
Z35 
Z64 



M1/ADR.66/CB.4 
M1/ADR.66/CB.4 
M1/ADR335/CB.4 
M2/ADR^78/CB.4 
M4/ADR.1549/CB.0 



M1/ADR335/CB.4 

M2/ADR^78/CB.4 

M2/ADR^78/CB.4 

M4/ADR.1348/CB.4 

M3/ADR.1026/CB.0 



2 
7 
1 
3 
1 



JA 
JA 
JA 
JA 
JA 



Beim Verfahrensschritt V3311 wird S? PloS,n!«.K n » Lmk - Anord ™ng erfolgen soil, 

welche Module von denS^ Tabelle 5 wird "ntersucht, 

Modulen wird aufsummien angegeofn w^^ Su f- Zu . J eder Combination von den 

griffen 212 gibt es insgesamt zwef Cache Mis^ bei den Speicherzu- 

der Tabelle 5 entnehmbar ist Beispte^ ~ ie -sbesondere 

Cache-Misses, und es sind die beiden Module Ml undm^^^ i^ 2 ^ glbt % ms & s ™ ach * 
insgesamt drei Cache-Misses, und es sind die beiden Module M^n^ 235 gibt es 

gibres einen Cache-Miss und es sind die beiden SSulcM^ Speicherzugriff Z64 

welche als Plottungstabelle zusammengLS isL betroffen. Dies ist in Tabelle 6 dargestellt, 



45 



50 



55 



60 



65 
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Tabelle 6 



Betroffener Modul Ml M2 M3 M4 

Ml MISS = 2(c) MISS = 8 (a) - _ 

M3 ~ ~ MISS = 3(b) 

M4 ~ MISS -1(d) 
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Beim Verfahrensschritt V3410 werden Plottungseintrage der Plottungstabelle untersucht, und bei diesem 
Ausfuhrungsbeispiel gemaB ihrer Anzahl von Cache-Misses bearbeitet. Diese Reihenfolge ihrer Bearbeitung ist 
15 ben F 6 gemaB lterativ ausgefuhrter Bearbeitungsschritte symbolisch mittels (a), (b), (c), (d) wiedergege- 

Ausgehend von der untersuchten Link-Anordnung gemaB Ml, M2, M3, M4 wird gemaB (a) beim Verfahrens- 
schritt V3412 erkannt, daB die beiden Module Ml und M2 betroffen sind, mit dem Modul Ml als in der 
Reihenfolge der Link-Anordnung vorderen Modul und mit dem Modul M2 als dem hinteren Modul. Beim 
verfahrensschritt V3440 wird der hintere Modul M2 markiert als nach vorne zu verschieben Dies soli insbeson- 

20 dere gemaB M2.v dargestellt sein. Dieser Modul M2.v wird bei den Verfahrensschritten V3451 V3452 V3453 
uberpruft und beim Verfahrensschritt V3470 erneut in gleicher Weise markiert als nach vorne zu verschieben 
Beim Verfahrensschritt 3471 wird der Modul M2.v vertauscht mit seinem vorhergehenden Modul Ml so daB 
danach als Link-Anordnung M2.v, Ml, M3, M4 vorliegt. Beim Verfahrensschritt V3480 werden die beiden 
x^ aU w, l ! n , e MZv und M1 a,s bereits verscnob en markiert. Dies soli durch ein Unterstreichen gemaB 

25 M£v, Ml dargestellt sem. msbesondere auch in der Link-Anordnung M2.v, Ml, M3, M4. Bei den Verfahrens- 
schritten V3491 und V3492 wird der Modul M2v uberpruft, welcher belnTVeffahrensschritt 3493 markien wird 
?Z 2*f w,"*^ 1 ZU verschieben - D »es soli gemaB M2Ji dargestellt sein. Beim Verfahrensschritt V3495 wird der 
MrM3M4vSEgt S ° naCH BearbeitUng dCS plottun gseintrages gemaB (a) als Link-Anordnung M2J1, 

30 J^ Sg ^ h i en K C !.o? n d L C w r L ; n ^ Anordnung folgt die Bearbeitung des Plottungseintrages gemaB (b), bei welchem 
die Module ^ und M4 als betroffene Module untersucht werden. Beim Verfahrensschritt V3411 wird erkannt. 
Lhik-Ano^dnung markiert ist a,s bereits verschoben. Er erfolgt zunachst keine weitere Anderung der 

Es folgt die Bearbeitung des Plottungseintrages gemaB (c). bei welchem der Modul Ml als betroffener Modul 
35 untersucht wrd. Beim Verfahrensschritt V3411 wird erkannt, daB der Modul MFmarkiert ist als bereits 

verscnoben. Es erfolgt zunachst keine weitere Anderung der Link-Anordnung. 

Es folgt die Bearbeitung des Plottungseintrages gemaB (d), bei welchem die Module M3 und M4 als betroffene 
Module untersucht/werden. Beim Verfahrensschritt V3440 wird der Modul M4 markien gemaB M4v beim 
Verfahrensschritt V3471 werden die Module M3 und M4.v vertauscht. und beim Verfahrensschritt V3480 
40 markiert gemaB M4£.M3 so daB danach als Link-Anordnung M2h, Ml. M4.v, M3 vorliegt. wie dies msbesonde- 
re annand von Tabelle 7 erkennbar ist 



Tabelle 7 



45 



50 



Link-Anordnung 


1. Modul 


Z Modul 


3. Modul 


untersucht: 


Ml 


M2 


M3 


variiert 








(a): 


M2ii 


Ml 


M3 


(b): 


M2.h 


Ml 


M3 


(c): 


M2.h 


Ml 


M3 


(d): 


M2Ji 


Ml 


M4.v 



4. Modul 



M4 

M4 
M4 
M4 
M3 



Die Fig. 10 zeigt diese Link-Anordnung, welche als eine noch nicht untersuchte Link-Anordnune erkannt wird 
beim Verfahrensschritt V3500. 

Es folgt somit beim Verfahrensschritt V3100 das Ermitteln der Hauptspeicheradressen fur die betrachteten 
Programmstellen gemafi der neuen Unk-Anordnung in einer Weise. wie dies bereits fur die vorher untersuchte 
60 Link-Anordnung anhand von Fig. 9 und Tabelle 4 erlautert ist, so daB fur die neue Link-Anordnunf? Tabelle fi 
und Fig. 10 gilt. 6 
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Tabelle 8 



Programmstelie 



Haupispeicheradresse 



Cacheblock 



Ml/Sl 
M1/S2 
M2/S3 
M3/S4 
M4/S5 
M4/S6 



ADR.416 

ADR.685 

ADRJ6 

ADR.1605 

ADR.1078 

ADR.1279 



CB.10 

CB.10 

CB3 

CB.4 

CB3 

CB.15 



10 



15 



Speicherzugriff von 



212 
213 
223 
235 
264 



ADR.416/CB.10 

ADR416/CB.10 

ADR.685/CB.10 

ADR^6/CB3 

ADR1279/CB.15 



Tabelle 9 
nach 

ADR.685/CB.10 

ADR56/CB3 

ADR36/CB3 

ADR.1078/CB3 

ADR.1605/CB.4 



2 
7 
1 
3 
1 



JA 

NEIN 
NEIN 
JA 

NEIN 



Tabelle 6 erlautert 1st, so daB nun Tabelle 1 SgH? We,SC ' W,e dies bereits anh ™<* von 



20 



25 



50 



Betroffener Modul 



Tabelle 10 
M2Ji Ml 



M4.v 



M3 



MZh 
Ml 
M4.v 
M3 



MISS « 2(0 



MISS - 3(e) 



35 



40 



erfoIgt.w,e dies insbesondereanhand von Ta?e^ WCItere And *™g der Lmk-AnorfniSg 



Tabelle 11 



Link-Anordnung 

untersucht: 
variien 
(e): 

(0: 



M2Ji 

M2.h 
M2Ji 



Ml 

M4.v 
M4.v 



3. Modul 



M4.v 



4. Modul 



M3 



45 



50 



55 



Ml 
Ml 



M3 
M3 



^V^S^^ Aa ^ ^ * ™ noch nicht untersuchte Link-Anordnung erkannt w.rd 

^Si^^^SS^SS^S^ Ennitteln der H-P^eicheradressen f0r die betrachteten 
er.au t enis:,so d aB^rdi^ wie dies bereirs anhand von TateSH 



60 



65 
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Tabelle 12 



Programmstelle 



H auptspeicheradresse 



Ml/Sl 
M1/S2 
M2/S3 
M3/S4 
M4/S5 
M4/S6 



ADR.995 

ADR.1264 

ADR^6 

ADR.1605 

ADR-556 

ADR.757 



Cacheblock 



CB.14 

CB.15 

CB3 

CB.4 

CB.2 

CB.15 



Beim Verfahrensschritt V3200 werden Cache- Misses prognostiziert gemaB dieser neuen Link-Anordnung in 
is einer Weise, wie dies bereits anhand von Tabelle 5 erlautert ist, so daB fur diese neue Link-Anordnung Tabelle 13 
und Fig. 1 1 gilt. 

Tabelle 13 



20 



Speicherzugriff von 



nach 



Anzahl 



Cache- Miss 



212 
213 
25 223 
235 
264 



ADR.995/CB.14 

ADR.995/CB.14 

ADR.1264/CB.15 

ADR-56/CB3 

ADR.757/CB.15 



ADR.1264/CB.15 

ADR.56/CB3 

ADR^6/CB3 

ADR356/CB.2 

ADR1353/CB.4 



2 
7 
1 
3 
1 



NEIN 
NEIN 
NEIN 
NEIN 
NEIN 



30 



35 



40 



45 



50 



55 



60 



65 



Beim Verfahrensschritt V3310 wird erkannt, daB fur diese neue Link-Anordnung keihe Cache-Misses vorlie- 
gen, so daB beim Verfahrensschritt V4000 das Link-Verfahren mit dieser zuletzt vorliegenden Link-Anordnung 
durchgefiihrt wird. 

Patentanspruche 

1. Verfahren zur maschinellen Optimierung des Bindens von Programmodulen zu einem Programm im 
Hinblick auf die verwendete Speicherhierarchie bei dem das Programm ausfuhrenden Rechner, 

a) bei dem in einem Trace-Verfahren (V2000) Speicherzugriffe (212, 213, ...) der Programmodule 
ermittelt und in einem Traceprotokoll (Trace) aufgelistet werden, 

b) bei dem in einem Untersuchungsverfahren (V3000) fur unterschiedliche Link-Anordnungen der 
Programmodule (Ml, M2, ...) Cache-Misses (MISS) fur das im Rechner zur Anwendung kommende 
Cache ermittelt werden, 

c) bei dem in einem Linkverfahren (V4000) die Link-Anordnung ausgewahlt wird, die beim Untersu- 
chungsverfahren (V3000) die geringste Anzahl von Cache- Misses ergeben hat 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB eine Monte-Carlo- Methode benutzt wird zum 
Variieren der Link-Anordnung (V3300). 

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB eine Plottungstabelle erstellt wird beim 
Untersuchen der Link-Anordnung (V331 1). 

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daB in der Plottungstabelle (Tabelle 6, Tabelle 10) 
aufsummiert eingetragen wird, wieviele Cache-Misses (MISS) insgesamt bei Speicherzugriff en (212, 213, 
. . .) innerhalb je eines sowie zwischen je zweien der Module (Ml, M2, . . .) vorliegen, so daB anhand dieser 
Plottungseintrage der Plottungstabelle jene Module bestimmt werden, welche zum Variieren der Link-An- 
ordnung verschoben werden (V3400). 

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daB beim Variieren der Link-Anordnung jeder 
Plottungseintrag von Cache-Misses (MISS) beriicksichtigt wird, indem eine Reihenfolge der Module (Ml, 
M2, . . .) der Link-Anordnung so variiert wird ( V3400), 

— daB im Falle von einem betroffenen Modul dieser bevorzugt nach hinten gereiht verschoben wird, 

— sowie daB im Falle von zwei betroffenen Modulen bevorzugt der in der Reihenfolge hintere nach 
vorne gereiht verschoben wird, 

— sowie daB eine Richtung der bevorzugten Reihung markiert wird, 

— sowie daB markiert wird, ob ein Modul bereits verschoben ist. 

6. Verfahren nach einem der Anspruche 1 bis 5, dadurch gekennzeichnet, daB beim Variieren der Link-An- 
ordnung eine Liicke eingefugt wird. 
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